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摘要 : 目前 能 源 紧 缺 的 国际 背景 下 ， 核 能 发 展 为 重要 清洁 能 源 ， 质 子 加 速 器 成 为 处 理 核 废 
料 的 重要 设备 。 在 加 速 器 束 流 轨道 校正 过 程 中 ， 需 要 束 流 轨道 参数 辅助 计算 。 神 经 网 络 目 
前 应 用 在 工业 界 各 个 领域 ， 可 以 实现 准确 率 高 的 数据 拟 合 预 测 。 因 此 ， 提 出 了 一 种 基于 
缘 智 能 计算 节点 的 直线 加 速 器 束 流 轨 道 参 数 预测 技术 。 该 方法 通过 BPNN 对 过 往 数 据 学 
生成 模型 部 署 到 边缘 计算 节点 加 速 预测 BPM 位 置 参数 ， 可 以 使 用 边缘 计算 节点 加 速 校正 
流 位 置 。 实 验 结果 表明 ，FPGA 硬件 加 速 器 作为 边缘 加 速 节点 仿真 推理 速度 达到 55us， 能 
效 比 相 比较 GPU 和 CPU 分 别 是 其 23.13 倍 倍 和 553.15 倍 左 右 ， 预 测 结果 误差 平均 0.5%, 
时 延 和 精度 达到 预期 目标 。 
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0 引言 
为 了 解决 化 石 能 源 枯竭 和 核 废料 处 置 的 问题 ， 加 速 器 次 临界 反应 堆 系统 ADS 
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Driven System) 是 ADS EHH, RIF ES E T Ge Se AE SUR. FE SED 
应 用 中 ， 粒 子 加 速 器 系统 中 存在 多 种 因素 导致 轨道 畸变 ， 影 响 束 流质 量 和 稳定 性 ， 甚 至 引 
发 故障 ， 所 以 束 流 轨道 校正 在 加 速 器 运行 中 至 关 重 要 ”。 未 来 目标 实现 自 适 应 补偿 的 束 流 
轨道 校正 系统 ， 其 中 束 流 轨道 参数 对 校正 束 流 轨 道 提 供 数据 基础 ， 需 要 设计 一 种 实时 性 高 

精度 高 并 且 可 以 和 自 适应 补偿 系统 结合 使 用 的 束 流 位 置 预测 系统 ” 

本 文 提出 了 一 种 基于 边缘 智能 计算 技术 的 轨道 数据 预测 方法 ， 快 速 预测 BPM(Beam 
Position Monitor) 位 置 参数 ， 为 未 来 实现 自 适 应 补偿 在 线束 流 轨道 校正 系统 提供 束 流 位 置 校 
正 。 通 过 直接 读 取 BPM 数据 和 校正 磁铁 强度 值 构建 深度 学 习 模型 ， 利 用 FPGA(Field 
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Programmable Gate Array) 的 并 行 计算 能 力 和 硬件 优化 技术 加 速 边缘 节点 ， 实 现 高 速 、 低 功 
耗 、 低 成 本 的 束 流 轨道 数据 预测 ”。 该 方法 结合 了 神经 网 络 、 边 缘 智 能 计算 的 优势 ， 是 一 
种 有 效 的 束 流 轨道 数据 预测 方法 。 
1. 相关 工作 
1.1 加 速 器 束 流 轨 道 参数 预测 现状 

目前 国内 外 有 多 个 机 构 和 团队 从 事 粒 子 加 速 器 束 流 轨道 参数 预测 方面 的 研究 工作 ， 如 
中 国 科学 院 近 代 物 理 研究 所 、 欧 洲 核子 研究 中 心 CERN 等 。 粒 子 加 速 器 的 性 能 和 效率 取决 
于 束 流 在 加 速 过 程 中 的 动力 学 行为 ， 而 束 流动 力学 又 受到 多 种 因素 的 影响 ， 如 空间 电荷 效 
应 、 阻 尼 效 应 、 集 体 效 应 、 非 线性 效应 等 。 已 经 提出 的 预测 束 流 轨道 参数 的 方法 有 多 种 ， 
如 理论 模型 法 、 数 值 模拟 法 、 机 器 学 习 法 等 。 

理论 模型 法 最 早 可 以 追溯 到 牛顿 的 经 典 力学 和 麦克 斯 韦 的 电磁 理论 ， 它 们 都 是 用 数学 
方程 来 描述 物理 现象 的 典范 。 其 优点 是 既 能 反映 内 部 规律 ， 也 能 分 析 两 个 因素 的 相关 关系 ， 
精度 相对 较 高 ， 适 用 于 短 、 中 、 长 期 的 预测 。 缺 点 是 方程 的 建立 需要 做 出 一 些 假设 条 件 ， 
不 同 的 假设 会 得 到 不 同 的 方程 ， 而 且 方 程 的 解 比较 难得 到 。 

数值 模拟 法 是 随 着 计算 机 技术 的 发 展 而 兴起 的 ， 它 可 以 对 复杂 和 非 线性 的 问题 进行 数 
值 求解 。 其 优点 是 可 以 处 理 复杂 和 非 线 性 的 问题 ， 可 以 考虑 多 种 影响 因素 ， 精 度 较 高 。 缺 
点 是 需要 大 量 的 计算 资源 和 时 间 ， 对 计算 机 性 能 要 求 较 高 。 

机 器 学 习 法 是 近年 来 受到 广泛 关注 和 应 用 的 一 种 人 工 智能 技术 ， 它 可 以 从 数据 中 学 习 

规律 和 知识 ， 并 进行 预测 和 决策 。 这 种 方法 是 利用 人 工 智能 技术 对 历史 数据 进行 分 析 和 学 

O 习 ， 建 立 预测 模型 ”。 优 点 是 不 需要 建立 数学 模型 ， 可 以 处 理 非 线性 和 高 维度 的 问题 ， 具 
有 强大 的 拟 合 能 力 和 自 适应 能 力 。 缺 点 是 不 能 反映 事物 的 内 在 联系 和 原理 ， 需 要 大 量 且 质 
量 好 的 数据 进行 训练 和 验证 。 
2. 2 深度 学 习 加 速 技术 现状 

深度 学 习 在 多 个 领域 上 表现 出 优 于 传统 算法 的 效果 ， 但 是 其 参数 体 量 大 ， 若 想 将 其 应 
到 边缘 设备 中 去 ， 就 要 对 深度 学 习 模型 进行 压缩 与 加 速 ”。 

神经 网 络 剪 枝 可 以 在 保持 精度 的 同时 显著 压缩 模型 ， 如 Song Han 等 人 实现 了 35-49 4% 
的 压缩 率 ， 其 中 剪 枝 贡献 了 10 倍 以 上 ”。 深 鉴 科技 将 其 应 用 于 FPGA 上 的 语音 识别 ”。Fuj 
让 等 人 采用 神经 元 修剪 ， 将 VGG-11 网 络 层 神经 元 减少 89.3%， 准 确 性 仍 达 99%。 权 重 参数 


减少 后 ，FPGA 上 的 片上 存储 器 可 以 高 速 访问 权重 存储 器 ”。 
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模型 量化 可 以 将 全 精度 数 映射 到 有 限 整数 空间 ， 降 低 计算 复杂 度 。Nagel AA BESTE 
了 量化 方法 , 量化 加 速效 果 取 决 于 硬件 平台 和 推理 库 ”。Liang S 等 人 实现 了 二 值 神经 网 络 ， 
TE FPGA 上 比 CPU 和 GPU 分 别 快 705 倍 和 70 倍 ， 但 精度 损失 大 ””。Kuan Wang 等 人 提出 
了 硬件 感知 自动 量化 ， 利 用 强化 学 习 确定 量化 策略 ， 有 效 降低 延迟 和 能 耗 ”。Riadh Ayachi 
等 人 总 结 有 数据 量化 、 快 速 矩 阵 计 算 、 频 率 优 化 、 优 化 片 内 存储 器 设计 、 数 据 路 径 以 及 循 
环 展开 等 优化 方法 ”。 本 文中 使 用 其 中 的 数据 量化 算法 ， 将 神经 网 络 量化 为 低位 宽 的 定点 
数 ， 降 低 数据 存储 空间 并 且 加 快 推 理 速 度 。 
2.3 BP 神经 网 络 介绍 

BPNN(Back propagation neural network) 是 一 种 基于 误差 反 向 传播 算法 训练 的 多 层 前 馈 神 
经 网 络 ， 它 能 够 通过 调整 网 络 的 权 值 和 阔 值 ， 最 小 化 实际 输出 与 预计 输出 之 间 的 误差 。 其 
具有 优良 的 非 线 性 映射 能 力 和 灵活 的 网 络 结构 ， 应 用 于 函数 拟 合 、 模 式 识别 和 数据 压缩 等 
领域 。 

BPNN 由 输入 层 、 隐 藏 层 和 输出 层 构成 ， 每 一 层 包含 多 个 神经 元 ， 计 算 过 程 分 为 正 向 
传播 和 反 向 传播 两 个 阶段 。 其 结构 如 图 1 所 示 。 


图 1 BPNN 结构 


激活 函数 引入 非 线性 因素 ， 使 神经 网 络 可 以 拟 合 数据 。 常 用 的 激活 函数 有 Sigmoid R 
数 ，ReLU 函数 以 及 Tanh 函数 。Sigmoid 函数 和 双 曲 正切 非 线性 函数 需要 较 长 的 训练 时 间 ， 
ReLU 是 一 个 更 简单 易 用 的 激活 函数 ， 如 下 : 

f(x) = max(x,0) 

ReLU 函数 在 训练 中 收敛 较 快 ， 并 且 具 有 更 小 的 计算 复杂 度 ， 所 以 在 边缘 节点 部 署 中 有 

eLU 更 易 实 现 ， 在 HLS 中 ， 可 以 进行 ReLU 函数 优化 。 
3. 系统 架构 及 方法 设计 
我 们 计划 未 来 建立 一 套 基 于 边缘 智能 计算 的 粒子 加 速 器 束 流 校正 自动 控制 系统 ， 作 为 
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前 期 的 研究 ， 本 文 基于 边缘 智能 节点 实现 了 MEBT 束 流 轨 道 参 数 的 预测 系统 ， 图 2 为 BPM 
以 及 磁铁 位 置 关 系 图 。 边 缘 智能 节点 是 指 在 靠近 用 户 或 数据 源 的 网 络 边缘 端的 具有 计算 、 
存储 、 网 络 等 资源 的 设备 ， 其 具有 高 效 性 、 安 全 性 、 可 移植 性 等 优势 。 为 了 提高 束 流 轨道 
参数 预测 的 实时 性 和 精度 ， 使 用 边缘 智能 节点 来 加 速 执行 计算 和 分 析 ” 。 
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图 2 BPM 以 及 磁铁 位 置 关系 图 

FPGA 是 一 种 可 编程 逻辑 器 件 ， 其 可 重 构 的 逻辑 单元 可 以 实现 高 度 并 行 计 算 ， 提 升 边 
缘 计算 节点 的 性 能 和 吞吐 量 ， 并 且 其 支持 多 种 数据 类 型 和 算法 ， 满 足 边缘 计算 的 多 样 化 需 
求 。 此 外 ，FPGA 能 够 利用 其 低 功 耗 和 低 延 迟 的 特性 运行 算法 ， 满 足 边 缘 计算 对 时 效 性 和 

能 效 性 的 要 求 。 

BP 神经 网 络 作 为 一 种 多 层 前 馈 神经 网 络 ， 能 够 通过 反 向 传播 算法 进行 自 适应 学 习 ， 实 
现 复杂 非 线性 函数 的 逼近 。 在 本 文中 ， 我 们 利用 BP 神经 网 络 对 磁铁 强度 与 BPM 位 置 之 间 
的 关系 进行 函数 拟 合 ， 从 而 预测 不 同 磁铁 强度 下 的 BPM 位 置 。BPM 位 置 是 指 粒子 束 在 加 
速 器 中 的 轨道 偏 移 量 ， 它 反映 了 粒子 束 的 质量 和 稳定 性 。 为 了 提高 数据 预测 效率 ， 我 们 将 
BPNN 作为 边缘 节点 算法 部 署 到 FPGA 开发 平台 上 。 而 FPGA 去 实现 神经 网 络 最 关键 的 地 
方 就 是 设 定好 一 种 架构 ， 包 括 数据 的 传输 、 临 时 存储 、 结 果 读 取 等 。 神 经 网 络 的 部 署 不 只 
要 实现 权重 和 激活 值 的 矩阵 运算 以 及 激活 函数 的 输出 ， 还 要 对 FPGA 架构 设计 进行 有 效 优 
化 ， 提 高 实际 应 用 的 实时 性 。 所 以 设计 核心 是 神经 网 络 加速 器 设计 和 硬件 架构 设计 两 方面 。 
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训练 数据 神经 网 络 训 练 平 台 ”边缘 计算 加 速 节点 
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图 3 系统 架构 图 


4、 具 体 算法 设计 
4.1 参数 预测 算法 设计 

BPNN 作为 算法 部 署 到 边缘 计算 节点 ， 网 络 体 量 必 须要 小 ， 并 且 要 防止 输出 过 拟 合 。 
因此 设计 使 用 12 个 神经 元 输入 10 个 神经 元 输出 的 单 隐 层 BPNN， 其 中 隐藏 层 包含 20 个 神 
经 元 。12 个 输入 神经 元 包括 5 个 磁铁 的 参数 值 和 第 一 个 BPM 的 坐标 值 ，10 个 神经 元 输出 
包括 5 BPM 的 坐标 参数 值 。 实 验 中 以 这 些 已 知 量 为 输入 ， 预 测 后 面 BPM 的 位 置 坐标 ， 
这 些 数 据 坐标 可 以 作为 映射 关系 输出 到 自动 化 的 束 流 校正 系统 ， 激 活 层 采用 ReLU 函数 ，B 
PNN 网 络 结构 设计 如 图 4 所 示 。 
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图 4 BPNN 结构 设计 

设计 的 BPNN 包含 前 向 传播 和 反 向 传播 部 分 ， 神 经 网 络 训练 首先 根据 输入 进行 正 向 传 
播 即 神经 元 输入 乘 权 重 累 加 偏 置 ， 从 输入 层 到 隐藏 层 需要 进行 240 次 累加 乘法 ， 从 隐藏 层 
到 输出 层 需 要 进行 200 次 累加 乘法 。 反 向 传播 使 用 梯度 下 降 法 ， 根 据 前 向 传播 的 各 层 输出 
结果 计算 loss 函数 ， 然 后 使 用 梯度 下 降 进 行 反 向 传播 调 优 ， 进 而 降低 loss 使 得 数据 拟 合 。 

实验 的 数据 集 是 基于 Trace Win 束 流动 力学 软件 产生 的 模拟 数据 ， 经 过 统计 学 处 理 之 后 
的 数据 作为 训练 集 以 及 验证 集 ， 其 确定 性 因素 是 MEBT 的 lattice， 如 Q 铁 ， 非 确定 性 因素 
是 校正 磁铁 的 强度 ， 其 中 影响 输出 结果 但 是 不 可 测 的 因素 是 真实 加 速 器 和 模拟 加 速 器 的 误 
差 。 其 BPM 数据 集散 点 图 如 图 5 所 示 ， 其 中 每 个 子 图 的 横 纵 坐标 都 分 别 代表 其 BPM 的 坐 
标 轴 数 据 。Magnet 做 铁 电流 强度 参数 数据 散 点 图 如 图 6 所 示 ， 其 中 X,Y 轴 分 别 代表 其 2 个 
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方向 的 磁铁 电流 强度 。 


图 5 BPM 训练 数据 散 点 图 


Magnet1 Magnet2 


图 6 Magnet 磁铁 强度 参数 数据 散 点 图 
训练 基于 Pytorch 平台， 使 用 随机 分 配 的 5000 组 训练 集 进行 3000 轮训 练 ，BatchSize 设 
置 为 64， 对 测试 集 和 验证 集 进行 测试 ， 验 证 集 误差 在 0.5% 左右 。 神 经 网 络 训练 和 测试 的 
损失 值 如 图 7 所 示 ， 其 loss 基本 收敛 在 XX 轴 附 近 。 
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图 7 训练 和 测试 损失 值 
4.2 基于 FPGA 的 并 行 加 速算 法 设计 、 实 现 
4. 2.1 硬件 系统 架构 设计 
本 文 介绍 了 一 种 基于 FPGA 的 神经 网 络 加 速 器 设计 ， 利 用 ZYNQ SOC 平台 上 PS (Proc 


essing System) 和 PL (Programmable Logic) 之 间 的 高 效 数据 交互 能 力 。 神 经 网 络 加 速 器 是 
一 个 自 定义 的 IP CIntellectual Property) 核 ， 它 可 以 加 速 全 连接 层 的 前 向 推理 计算 ， 并 输出 


预测 结果 。PS 端 通过 AXI-lite 接口 向 AXI DMA 发 送 控制 指令 。PL 端 通过 AXI SmartConne 


ct 调度 数据 流 进行 交互 ， 使 用 AXI interconnect 进行 控制 流 的 调度 ，DMA 的 MM2S 和 S2M 
M 接口 分 别 接收 数据 和 发 送 处 理 好 的 数据 ， 完 成 数据 流 以 及 控制 流 的 流通 ， 形 成 闭环 。 图 
8 是 本 设计 的 硬件 系统 框图 。 
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图 8 硬件 系统 框图 


4. 2.2 定点 数量 化 算法 


的 鲁 棒 性 使 量化 处 到 


量化 是 指 用 较 低位 宽 表示 32 位 浮 点 型 参数 ， 减 少 推理 时 间 和 参数 存储 空间 。 神 经 网 络 


E 参 数 后 仍 能 保持 精度 。 和 矩阵 的 浮 点 数 乘 累加 运算 可 以 通过 量化 数据 的 


乘法 加 法 和 移 位 操作 来 代 蔡 ,显著 降低 浮 点 数 运 算 对 DSP (Digital Signal Processing) 资源 的 
消耗 。 量 化 主要 分 为 训练 后 量化 (Post-Training Quantization) 和 量化 感知 训练 (Quantization Aw 
are Training)。 训 练 后 量化 不 需要 重新 训练 或 标记 数据 ， 是 一 种 轻 量 级 的 量化 方法 。 在 大 多 
数 情况 下 ， 训 练 后 量化 足以 实现 接近 浮 点 精度 的 8 位 量化 。 量 化 感知 训练 需要 对 标记 训练 
数据 进行 微调 和 访问 ， 但 能 够 实现 较 低 精度 损失 的 低 比 特 量化 。 由 于 设计 部 署 在 FPGA F 
台 上 ， 定 点 数量 化 方法 更 适合 部 署 ，FPGA 对 于 定点 数 运算 有 着 更 高 效 的 加 速效 果 。 

定点 数量 化 就 是 将 数字 表示 为 整数 和 小 数 的 组 合 ， 首 先 确 定 定点 数 表示 的 范围 和 精度 ， 
定点 数 的 表示 范围 由 位 宽 决 定 ， 精 度 则 由 小 数 点 位 置 决定 。 选 定 合适 的 位 宽 和 小 数 点 位 置 ， 


可 以 在 同时 满足 精度 和 范围 的 前 提 下 尽 可 能 地 减 小 所 需 资源 。 根 据 所 选 定点 数 的 位 宽 和 人 小 
数 点 位 置 ， 定 义 所 需 的 数据 类 型 和 数据 宽度 。 最 后 根据 所 选 定 点 数 的 位 宽 和 小 数 点 位 置 ， 
将 浮 点 数 转 换 为 对 应 的 定点 数 表示 。 


在 数字 信号 处 到 


和 机 器 学 习 等 领域 中 ， 定 点 量化 算法 被 广泛 应 用 于 将 高 精度 参数 转换 


为 低 精度 参数 ， 以 便于 在 嵌入 式 系统 中 进行 高 速 计算 时 ， 解 决 高 精度 计算 时 精度 不 足 的 问 
题 。 定 点 量化 算法 可 以 通过 不 同 的 取 整 函数 来 将 浮 点 数 转换 为 定点 数 。 向 下 取 整 会 导致 精 
度 损失 ， 而 向 上 取 整 则 可 能 会 导致 溢出 。 因 此 ， 定 点 量化 算法 需要 根据 应 用 场景 和 需求 选 
择 合适 的 取 整 方式 和 量化 位 数 。 
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4. 2. 3 神经 网 络 加 速算 法 

BPNN 作为 全 连接 神经 网 络 ， 其 计算 本 质 就 是 权重 矩阵 乘法 累加 偏 置 ， 所 以 对 于 和 矩阵 
乘法 的 优化 是 设计 的 核心 。 本 文采 用 流水 线 和 循环 展开 的 优化 方法 ， 和 盾 阵 乘法 算法 伪 代 码 
如 图 7 所 示 ， 可 以 看 到 其 中 主要 有 5 个 循环 ， 有 两 个 矩阵 乘 计 算 并 且 累 加 偏 置 。 甜 阵 乘法 
应 该 是 A 的 每 一 行 的 元 素 乘 如 的 每 一 列 的 相应 元 素 的 全 加 。 和 矩阵 乘法 的 运算 逻辑 最 内 层 的 


循环 是 进行 A 的 第 i 行 元 素 与 B 的 第 j 列 元 素 的 乘积 累加 。 其 外 层 是 对 算 阵 B 的 列 遍历 ， 


可 以 计算 出 其 第 ; 行 的 所 有 元 素 ， 最 外 层 的 循环 是 对 行 的 遍历 。 抵 阵 向 量 乘法 被 定义 成 : 


1 一 | 


Cj zy a,b, Qsüjsn-1l 
k=0 


: for i = 0 to n— 1 do 
for j = 0 ton — 1 do 
output1 = bias1[i] + weight [i][j] * in[j]; 
end for 


: for i = 0 ton-— 1 do 
for j = 0 to n — 1 do 
output = bias2[i] + weight2[i][j] * output1[j]; 


1 

2 

3 

4 

5 

5: Relu(output1); 
6 

7 

8 

9 end for 
1 


图 9 矩阵 乘法 算法 伪 代 码 

矩阵 运算 是 计算 资源 的 主要 消耗 者 , 对 于 设计 的 BPNN 来 说 ， 主 要 加 速 部 署 的 就 是 前 向 
传播 部 分 ， 前 向 传播 就 是 由 累加 乘 组 成 的 ， 输 入 和 输出 的 数据 和 设计 的 神经 网 络 相 同 。 根 
据 前 面 BPNN 的 结构 设计 来 看 ， 硬 件 加 速 器 应 该 包含 从 输入 层 到 隐藏 层 的 240 次 累加 乘 和 从 
隐藏 层 到 输出 层 的 200 次 累加 乘 。 为 了 提高 循环 并 行 性 能 ， 我 们 使 用 循环 展开 和 流水 线 化 
技术 。 循 环 展开 时 将 循环 体 复制 多 份 ， 并 在 硬件 上 同时 执行 一 组 迭代 。 其 参数 指定 了 每 次 
在 硬件 上 并 行 执 行 的 数目 。 循 环 展 开 不 仅 可 以 解决 利用 率 低下 的 问题 ， 还 可 以 帮助 优化 数 
据 路 径 和 片上 存储 器 设计 。FPGA 流水 线 化 是 指 将 一 个 复杂 的 计算 任务 分 解 为 看 干 个 子 任务 ， 
并 按照 顺序 组 装 成 一 个 流水 线 处 理 的 过 程 。FPGA 部 署 神经 网 络 的 流水 线 化 是 利用 FPGA 上 
的 可 重 构 资源 进行 了 设计 和 优化 ， 使 用 DSP 进行 矩阵 运算 ,使 用 LUT 进行 逻辑 运算 和 查找 
表 操 作 。 整 体 硬 件 加 速 器 内 部 架构 如 图 10 所 示 。 
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图 10 硬件 加 速 器 内 部 架构 


5、 测 试 及 讨论 

本 设计 应 用 了 BPNN 神经 网 络 技术 对 于 过 往 的 实验 数据 进行 拟 合 ， 得 到 期 望 的 神经 网 
络 模型 ， 使 用 定点 量化 技术 对 模型 参数 量化 ， 根 据 便 件 整体 架构 以 及 其 硬件 加 速 器 的 设计 ， 
将 FPGA 作为 边缘 加 速 节 点 部 署 BPNN 进行 加 速 。 测 试 包括 验证 边缘 加 速 节点 的 硬件 加 速 
效果 、 量 化 性 能 、 硬 件 性 能 指标 以 及 硬件 系统 架构 的 可 行 性 。 
5. 1 软 硬 件 实验 环境 

本 文 测试 部 署 边缘 计算 节点 的 神经 网 络 模型 为 BPNN， 使 用 Pytorch 训练 平台 对 神经 网 
络 进行 7000 轮训 练 ， 将 得 到 的 神经 网 络 权 重 以 及 偏 置 文件 保存 下 来 作为 后 续 测试 的 材料 。 


使 用 的 实验 开发 板 是 ZYBO-Z7, 主 频 为 120MHz; CPU 对 照 组 采用 12 vCPU Intel(R) Xeon(R) 


Platinum 8255C CPU @ 2.50GHz 处 理 器 ， 主 频 2.5GHz， 处 理 器 数量 为 24 核 48 线程 ，Linu 
x HERA; GPU 对 照 组 采用 Nvidia GTX 3090 芯片 ， 拥 有 10496 个 CUDA 核心 ， 核 心 频 
率 1400MHz， 配 有 24GB 的 显存 ，Linux 操作 系统 ， 在 ZYBO-Z7 开发 板 上 对 本 设计 进行 了 


实验 ， 硬 件 加 速 器 的 资源 利用 率 如 表 2 所 示 。 
d 2 硬件 加 速 器 的 资源 利用 率 


类 别 FF LUT DSP48E BRAM_18K 
资源 总 数 35200 17600 80 120 
使 用 数 8039 15808 64 0 
使 用 率 22% 89% 80% 0% 


从 表 2 看 到 加 速 器 BRAM 的 资源 利用 率 为 0， 是 因为 神经 网 络 的 模型 体 量 比较 小 ， 参 
数 经 过 优化 放 在 LUT 中 实现 。 本 文 使 用 Vivado 2018.3 对 设计 完成 综合 实现 。 
5.2 ”硬件 加 速 器 加 速效 果 测 试 

本 设计 主要 使 用 了 和 矩阵 计算 加 速 、 循 环流 水 线 以 及 循环 展开 技术 对 神经 网 络 进行 硬件 
加 速 ， 为 了 得 到 实际 加 速效 果 ， 需 要 对 使 用 上 述 优化 技术 加 速 前 后 的 资源 占用 以 及 时 钟 周 


JF! 


期 进行 测试 对 比 ， 加 速 前 指 未 


使 用 流水 线 化 、 循 环 展 天 


使 用 了 优化 技术 的 资源 占用 


发 现 DSP48E 和 LUT 的 占用 率 明 显 上 升 。 符 合 硬 伯 
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F 等 优化 技术 的 资源 占用 ， 加 速 后 指 
。 如 表 1 所 示 ， 对 比 硬件 加 速 器 加 速 前 后 的 资源 占用 率 ， 我 们 
F 加 速 器 用 资源 换取 运行 速度 的 设计 理念 ， 


从 加 速 前 后 时 钟 周期 可 以 看 出 ， 硬 件 加 速 器 对 算法 加 速 了 18.05 倍 左右 ， 硬 件 加 速 器 仿真 前 


向 推理 时 间 为 2. 9us。 


表 1 硬件 加 速 器 优化 前 后 资源 对 比 


Ky 时 钟 周 期 FF LUT DSP48E BRAM 18K 
加 速 前 5236 396 10% 6% 1% 
加 速 后 290 2296 89% 80% 0% 


5.3 量化 性 能 测试 


量化 参数 之 前 需要 测试 不 同位 数 定点 数量 化 算法 的 误差 ， 确 定量 化 位 数 之 后 将 浮 点 值 


转换 成 定点 数 并 且 对 其 进行 round 操作 。 分 别 进行 8 位 量化 、16 位 量化 以 及 32 位 量化 的 实 
验 ， 将 神经 网 络 的 权重 参数 通过 HLS 工具 里 的 AP. fixed 函数 分 别 量化 成 8 位 、16 位 以 及 3 
2 位 ， 将 这 些 不 同位 数 的 数据 送 入 神经 网 络 加 速 器 中 得 到 预测 结果 ， 对 预测 结果 和 实际 值 
进行 计算 误差 ， 得 到 不 同位 数量 化 的 误差 率 ， 从 而 得 到 不 同 量化 位 数 对 输出 结果 的 精度 影 
响 。 实 验 结果 如 图 9 所 示 ， 图 中 各 点 分 别 代表 对 应 BPM 位 置 的 量化 后 误差 率 的 数值 ，3 条 
折线 分 别 代表 3 种 量化 位 数 的 精度 。 由 图 11 可 见 16 位 定点 数量 化 的 误差 很 小 ， 与 32 位 定 


点 量化 精度 基本 一 致 ， 


8 位 量化 的 精度 损失 明显 ， 精 度 损失 最 大 的 点 位 已 经 超过 了 40%， 


所 以 本 设计 采用 16 位 的 定点 量化 方法 。8 位 定点 量化 的 误差 较 大 原因 是 输入 值 的 范围 已 经 


超过 了 8 位 定点 数 的 表示 范围 ， 造 成 误差 偏 移 严重 。 
20 
10 F A 
4 ^ f 
Op  we——a-—a——s— t sa —£ "a 
| A— a^ d i7 
gor | 
* | | 
P -20 上 | 
-30 H | 位 量 
| | —e— 16 位 量化 
ab Sd 一 4 一 8 位 量化 
mn EE | 
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5. 4 硬件 性 能 评估 


图 11 量化 位 数 误差 对 比 


为 了 测试 本 设计 的 性 能 指标 ， 需 要 对 照 组 进行 功 耗 测试 、 有 效 算 力 和 能 效 比 的 性 能 评 


期 刊 


估 。 选 取 目 前 主流 的 硬件 加 速 器 作为 对 照 组 ， 包 括 GPU 和 CPU 设备 。 使 用 包含 CPU 和 G 
PU 的 Linux 服务 器 进行 测试 ， 测 试 数据 是 Trace Win 输出 的 经 过 归 一 化 及 统计 学 处 理 的 100 
00 组 数据 。 从 验证 集中 随机 抽取 10 组 ， 分 别 送 入 ZYBO-Z7、GPU、CPU 计算 平台 ， 对 于 
GPU 和 CPU 平台 使 用 profile 工具 进行 前 向 推理 分 析 ， 可 以 得 到 满载 情况 下 其 前 向 推理 的 时 


延 ， 对 每 组 数据 在 不 同 计算 平台 上 的 处 理 时 间 、 网 络 推理 时 间 和 运算 量 及 不 同 平台 的 计算 


功 耗 进行 测试 ， 测 试 结果 如 表 3 所 示 ，FPGA 开发 板 功 耗 测试 如 图 12 所 示 。 从 表 3 可 看 出 ， 


BP 神经 网 络 在 该 硬件 加 速 器 推理 的 平均 时 间 约 为 55 


us, il 


速率 分 别 是 GPU 与 CPU 的 0. 


36 倍 、7.618 倍 ， 说 明 本 文 设计 的 边缘 智能 节点 在 FPGA 上 加 速效 果 明 显 ， 加 速效 果 介 于 G 


PU 和 CPU 之 间 。 该 节点 实际 功 耗 仅 为 1.572W， 远 低 于 GPU 与 CPU, i ATR FRAT 


lim] 


移动 设备 。BPNN 网 络 的 运算 量 为 440 FLOPs= 0.00044MFLOPs， 故 该 加 速 器 每 秒 的 有 效 算 


力 为 0.00044/0.000055= 8MOPS， 能 效 比 为 8/1.572= 5.09 MOPS/W。 该 加 速 器 的 能 效 比 是 G 


PU 的 23.13 倍 ，CPU 的 553.15 倍 ， 可 以 看 出 本 文 设计 的 边缘 计算 节点 有 着 优秀 的 性 能 收益 。 


实验 结果 表明 ， 系 统 整体 不 但 拥有 神经 网 络 的 数据 


以 合 能 力 ， 
件 加 速 优势 ， 显 著 降 低 运行 时 延 ， 增 加 算法 实时 性 。 
| ©) Dynamic: 1453W (92%) 
| =] Clocks: 0.022 W 


ES | 100% | E PL Static: 0.118 W (100 


图 12 开发 板 功 耗 测试 


| Signals 0.015W (1%) 
[3 Logic: 0011W (195) 


92% I BRAM: 0.003W (<1%) 
DSP: 0.004W (<19 
E PS7: 1.398 W (94%) 
E Static: 0118W ( 


表 3 加 速 平台 性 能 测试 对 比 


还 结合 了 边缘 加 速 节 点 的 硬 


类 别 ZYBO-Z7 GPU CPU 

单 组 数据 推理 时 间 /us 55 20 419 

每 秒 有 效 算 力 /MOPS 8 22 1.05 

实际 功 耗 /W 1.572 102 113 
能 效 比 /MOPS/W 5.09 0.22 0.0092 


5. 5 板 级 系统 功能 测试 和 精度 测试 
将 设计 好 的 硬件 加 速 IP 核 导 入 到 Vivado 软 伯 


据 处 理 后 ， 通 过 PS 端 控 制 并 输出 BPM 位 置 数据 ，ZYBO ] 


之 后 ， 根 据 硬件 架构 设计 绘制 Block 
Design 设计 图 ， 将 硬件 设计 集成 到 BSP (Board Support Package) 包 中 ， 导 入 SDK 软件 进 
行 PS 端 控制 代码 编写 。 输 入 数据 后 ， 经 过 AXI 接口 传递 到 硬件 加 速 器 ，FPGA 的 PL 端 数 


于 发 板 功能 串口 测试 结果 如 图 13 


202311.00053v1 


ChinaXiv 


ChinaXiv 合 作 期 刊 


所 示 。SDK Terminal 连接 COM4 串口 后 设置 比特 率 为 115200， 在 SDK Terminal 的 输入 窗口 
填写 BPNN 的 输入 数据 ， 点 击 Send 之 后 数据 送 入 开发 板 中 ， 之 后 串口 正常 输出 预测 的 BPM 
位 置 数据 。 实 验 表 明 ， 本 文 设计 的 硬件 架构 可 以 正确 接收 并 处 理 神经 网 络 输入 数据 ， 验 证 
了 本 系统 架构 设计 的 正确 性 。 


i*; Problems 4) Tasks © Console & SDK Terminal 图 SDKLog PRE 


= 


Connected to: Serial ( COM4, 115200, 0, 8) 


0.1266,0.2755,1.8975,4.7647,2.5888,3.5410,2.3178,3.9137,3.8727,3.0493, 


0.0995,0.4203,0.079,-0.1027,0.0212,-0.9021,-0.6212,0.0095,0.8106,-0.1578,0.354,-0.4084 Send Clear 


图 13 板 级 串口 测试 结果 

从 验证 集 抽取 的 10 组 数据 输入 边缘 加 速 节点 中 进行 精度 测试 ， 将 得 到 的 预测 数据 与 原 
始 数据 对 比 ， 得 到 各 组 预测 结果 和 实际 结果 的 误差 如 图 14 所 示 ，BPM 预测 误差 在 0.5% 左 
右 。 
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图 14 BPM 预测 误差 


6. 结论 及 展望 
本 文 从 提高 计算 速度 和 提高 能 效 比 的 角度 出 发 ， 设 计 了 一 种 以 FPGA 作为 边缘 智能 节 
点 的 加 速 系统 ， 通 过 软 硬 协 同 的 方式 ， 优 化 神经 网 络 前 向 传播 电路 及 降低 了 带宽 ， 以 满足 


束 流 轨道 参数 预测 的 实际 需求 。 神 经 网 络 加 速 串 在 计算 性 能 上 达到 8MOPS 的 有 效 算 力 ， 硬 
件 加 速 器 的 计算 功 耗 为 1.572W， 能 效 比 为 5.09MOPS/W， 是 GPU 的 23.13 倍 ， 是 CPU 的 5 
可 以 得 出 ， 作 为 神经 网 络 边缘 加 速 平 台 ，FPGA 加 速 神经 网 络 可 以 取得 很 
好 的 加 速效 果 ， 其 加 速效 果 在 实验 对 比 中 效果 介 于 GPU、 和 CPU 之 间 ， 并 且 明 显 强 于 CP 
U。 在 具有 良好 加 速效 果 的 情况 下 ，FPGA 加 速 器 具有 很 高 的 能 效 比 ， 在 大 规模 部 署 的 情况 
下 更 加 节省 能 源 。 


53.15。 从 数据 中 


实验 结果 表明 ， 本 文 提 
预测 中 预测 值 和 真实 值 平均 误差 在 0.5%， 硬 伯 


的 硬件 加 速 器 适合 应 用 于 边缘 计算 设备 ， 并 且 在 对 BPM 位 置 


加速器 仿真 平均 推理 时 延 2.9us，FPGA 边缘 


节点 推理 时 间 平 均 为 Sus， 能 够 满足 未 来 实现 的 自 适 应 补偿 在 线束 流 校正 系统 的 时 延 要 求 ， 


这 里 FPGA 边缘 节点 推 到 


时 间 的 大 部 分 时 延 都 浪费 在 了 数据 传输 ， 未 来 目标 设计 更 低 时 延 


的 数据 传输 硬件 架构 ， 以 达到 更 好 的 加 速效 果 。 有 具体 而 言 ， 主 要 贡献 为 研究 了 神经 网 络 加 
速 技 术 在 粒子 加 速 器 束 流 轨道 数据 预测 中 的 应 月 


线 加 速 器 束 流 轨道 参数 预测 技术 研究 ， 并 通过 实验 验 订 


是 边缘 加 速 节点 ， 


日， 探索 了 一 种 基于 边缘 智能 计算 节点 的 直 


E T 


T 


的 可 行 性 。 本 设计 的 核心 


具有 很 强 的 移植 性 ， 该 硬件 架构 以 及 边缘 节点 的 加 速算 法 不 仅 可 以 进行 


BPNN 的 前 向 推理 加 速 ， 对 于 其 他 有 高 实时 性 要 求 的 算法 或 者 神经 网 络 也 可 以 很 好 的 加 速 。 


但 本 文 的 研究 工 


测 方案 ， 需 要 考 


虑 在 实际 加 速 器 中 更 多 的 影响 因 


芷 是 基于 虚拟 加 速 器 的 数据 进行 的 ， 对 于 真实 的 加 速 器 的 束 流 轨 道 数据 预 
素 ， 在 实际 加 速 器 中 进行 数据 清洗 ， 选 择 


典型 的 数据 进行 学 习 。 在 今后 的 工作 中 ， 我 们 将 对 神经 网 络 模型 及 加 速 方案 进行 改进 ， 未 


来 结合 自 适应 补偿 的 自动 化 束 流 校正 系统 应 月 
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Abstracts: In light of the current international energy scarcity, nuclear power has emerged as a crucial source of 
clean energy. Proton accelerators have therefore become a pivotal technology in nuclear waste management. During 
beamline orbit correction processes, precise calculations of beamline orbit parameters are required. Given the 
demonstrated effectiveness of neural networks in a wide variety of industry domains, they offer promising potential 
for high-accuracy data fitting and prediction. Hence, this study proposes a novel direct linear accelerator beamline 
orbit parameter prediction technique based on edge intelligence computing nodes. This technique leverages BPNN 
to learn from historical data and generate a powerful model that can be seamlessly deployed to edge computing 
nodes, thereby accelerating the prediction of BPM location parameters. Furthermore, the proposed approach may be 
complemented by an adaptive compensation system in the future, which, in combination with edge computing nodes, 
could enable automatic beamline position correction, thereby achieving beamline orbit correction. Our experimental 
results demonstrate that FPGA, as an edge acceleration node, can achieve an inference speed of 2.5us, which 
represents a remarkable performance enhancement of approximately 165.6 times compared to CPU and 
approximately 7.9 times compared to GPU. The predicted results exhibit an average error of only 0.596, and they 
exhibit the desired latency and accuracy characteristics. 


Key words: FPGA; Prediction of orbital parameters; neural network accelerators; BPM 


